1
ภาพรวมและภูมิทัศน์การพัฒนาสถาปัตยกรรม
EvoClass-AI003Lecture 4
00:00

ภาพรวมและภูมิทัศน์การพัฒนาสถาปัตยกรรม

เราเปลี่ยนผ่านจากความสำเร็จเบื้องต้นของ AlexNet สู่ยุคของเครือข่ายประสาทเทียมแบบลึกมาก เครือข่ายประสาทเชิงพีชคณิต (CNNs). การเปลี่ยนแปลงนี้จำเป็นต้องมีนวัตกรรมทางสถาปัตยกรรมอย่างลึกซึ้งเพื่อจัดการกับความลึกสุดขีดในขณะที่ยังคงเสถียรภาพในการฝึกอบรม เราจะวิเคราะห์สถาปัตยกรรมสำคัญสามแบบ—VGG, GoogLeNet (Inception)และ ResNet—เพื่อเข้าใจว่าแต่ละสถาปัตยกรรมได้แก้ไขประเด็นต่างๆ ที่เกี่ยวข้องกับการขยายขนาดอย่างไร ซึ่งเป็นพื้นฐานสำคัญสำหรับความเข้าใจโมเดลอย่างแม่นยำในบทเรียนต่อไป

1. ความเรียบง่ายทางโครงสร้าง: VGG

VGG ได้แนะนำแนวทางการเพิ่มความลึกโดยใช้ขนาดเคอร์เนลที่เล็กและสม่ำเสมออย่างมาก (โดยเฉพาะ ฟิลเตอร์เชิงพีชคณิต 3x3 ที่ซ้อนกัน) ถึงแม้ว่าจะใช้ทรัพยากรในการคำนวณสูง แต่ความสม่ำเสมอทางโครงสร้างของมันได้พิสูจน์ว่าความลึกที่แท้จริง ซึ่งเกิดจากการเปลี่ยนแปลงสถาปัตยกรรมน้อยที่สุด เป็นปัจจัยหลักที่ทำให้ประสิทธิภาพดีขึ้น และยืนยันความสำคัญของสนามรับรู้ที่เล็ก

2. ประสิทธิภาพการคำนวณ: GoogLeNet (Inception)

GoogLeNet ตอบโต้ต้นทุนการคำนวณสูงของ VGG โดยให้ความสำคัญกับประสิทธิภาพและการดึงลักษณะเฉพาะหลายระดับ นวัตกรรมหลักคือ โมดูล Inceptionซึ่งดำเนินการคำนวณเชิงพีชคณิตแบบขนาน (1x1, 3x3, 5x5) และการรวมกลุ่ม อย่างสำคัญ คือ มันใช้ การคำนวณเชิงพีชคณิต 1x1 เป็น จุดแคบ เพื่อลดจำนวนพารามิเตอร์และซับซ้อนของการคำนวณอย่างมาก ก่อนการดำเนินการที่มีต้นทุนสูง

ความท้าทายด้านเทคนิคหลัก
Question 1
Which architecture emphasized structural uniformity using mostly 3x3 filters to maximize depth?
AlexNet
VGG
GoogLeNet
ResNet
Question 2
The 1x1 convolution is primarily used in the Inception Module for what fundamental purpose?
Increasing feature map resolution
Non-linear activation
Dimensionality reduction (bottleneck)
Spatial attention
Critical Challenge: Vanishing Gradients
Engineering Solutions for Optimization
Explain how ResNet’s identity mapping fundamentally addresses the Vanishing Gradient problem beyond techniques like improved weight initialization or Batch Normalization.
Q1
Describe the mechanism by which the skip connection stabilizes gradient flow during backpropagation.
Solution:
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.